Text copied to clipboard!
Titel
Text copied to clipboard!Site Reliability Engineer (SRE)
Beschreibung
Text copied to clipboard!
Wir suchen einen Site Reliability Engineer (SRE), der für die Sicherstellung der Zuverlässigkeit, Verfügbarkeit und Leistungsfähigkeit unserer IT-Systeme verantwortlich ist. In dieser Rolle arbeiten Sie eng mit Entwicklungsteams zusammen, um robuste und skalierbare Systeme zu entwerfen, zu implementieren und zu warten. Sie überwachen kontinuierlich die Systemleistung, identifizieren potenzielle Probleme frühzeitig und entwickeln automatisierte Lösungen zur Fehlerbehebung und Optimierung. Ihre Aufgabe ist es, Ausfallzeiten zu minimieren und die Benutzererfahrung durch proaktive Maßnahmen zu verbessern. Zudem sind Sie für die Implementierung von Monitoring-Tools, die Analyse von Systemmetriken und die Durchführung von Kapazitätsplanungen zuständig. Sie tragen dazu bei, die Infrastruktur sicher und effizient zu gestalten und unterstützen bei der Entwicklung von Notfallplänen und Wiederherstellungsprozessen. Ein tiefes Verständnis von Cloud-Technologien, Containerisierung und CI/CD-Pipelines ist ebenso erforderlich wie die Fähigkeit, komplexe technische Probleme zu lösen und in einem agilen Umfeld zu arbeiten. Wenn Sie eine Leidenschaft für Systemstabilität und Automatisierung haben und gerne in einem dynamischen Team arbeiten, freuen wir uns auf Ihre Bewerbung.
Verantwortlichkeiten
Text copied to clipboard!- Überwachung und Sicherstellung der Systemverfügbarkeit und -leistung
- Entwicklung und Implementierung von Automatisierungslösungen zur Fehlerbehebung
- Zusammenarbeit mit Entwicklungsteams zur Verbesserung der Systemarchitektur
- Durchführung von Kapazitätsplanung und Performance-Optimierung
- Implementierung und Wartung von Monitoring- und Alarmierungssystemen
- Analyse von Systemmetriken und Identifikation von Engpässen
- Erstellung und Pflege von Dokumentationen und Betriebsanleitungen
- Unterstützung bei der Planung und Durchführung von Notfallwiederherstellungen
- Sicherstellung der Einhaltung von Sicherheitsstandards und Compliance
- Kontinuierliche Verbesserung der Infrastruktur und Prozesse
Anforderungen
Text copied to clipboard!- Abgeschlossenes Studium im Bereich Informatik oder vergleichbare Qualifikation
- Fundierte Kenntnisse in Linux/Unix-Systemen
- Erfahrung mit Cloud-Plattformen wie AWS, Azure oder Google Cloud
- Kenntnisse in Container-Technologien (Docker, Kubernetes)
- Erfahrung mit Automatisierungstools und Skriptsprachen (z.B. Python, Bash)
- Vertrautheit mit CI/CD-Pipelines und DevOps-Praktiken
- Starkes analytisches Denkvermögen und Problemlösungsfähigkeiten
- Erfahrung im Monitoring und Logging (z.B. Prometheus, Grafana)
- Gute Kommunikationsfähigkeiten und Teamfähigkeit
- Bereitschaft zur Arbeit in Schicht- oder Bereitschaftsdiensten
Potenzielle Interviewfragen
Text copied to clipboard!- Wie gehen Sie mit unerwarteten Systemausfällen um?
- Welche Automatisierungstools haben Sie bereits eingesetzt?
- Beschreiben Sie Ihre Erfahrung mit Cloud-Infrastrukturen.
- Wie priorisieren Sie Aufgaben in einem kritischen Incident?
- Welche Monitoring-Tools bevorzugen Sie und warum?
- Wie integrieren Sie Sicherheitsaspekte in Ihre Arbeit?
- Können Sie ein Beispiel für eine erfolgreiche Optimierung eines Systems geben?
- Wie dokumentieren Sie Ihre Arbeit und Prozesse?
- Wie arbeiten Sie mit Entwicklungsteams zusammen?
- Welche Herausforderungen sehen Sie im Bereich Site Reliability Engineering?